1
จากความน่าจะเป็นสู่การประมาณค่า: วิทยาศาสตร์แห่งการอนุมาน
MATH003Lesson 6
00:00
การอนุมานทางสถิติหมายถึงการเปลี่ยนผ่านจากการทำนายผลลัพธ์จากพารามิเตอร์ที่รู้จัก (ความน่าจะเป็น) สู่การหาพารามิเตอร์ที่สอดคล้องกับข้อมูลที่สังเกตได้มากที่สุด (การประมาณค่า) ขณะที่ฟังก์ชันความหนาแน่นของความน่าจะเป็น $f(x|\theta)$ อธิบายการแจกแจงของข้อมูล $x$ เมื่อ $\theta$ คงที่ ฟังก์ชันการประมาณค่า $L(\theta|x)$ จะพิจารณาข้อมูลที่สังเกตได้เป็นค่าคงที่ และเปลี่ยนแปลงพารามิเตอร์ $\theta$ เพื่อประเมินระดับความสนับสนุนที่สัมพันธ์กับสมมติฐานต่าง ๆ

หลักการกลับด้าน

ฟังก์ชันการประมาณค่ามักแสดงในรูปของความหนาแน่นร่วม สำหรับการแจกแจงปกติที่มีความแปรปรวนคงที่ ฟังก์ชันการประมาณค่าถูกกำหนดโดย:

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

ที่นี่ เราประเมินความน่าเชื่อถือของค่า $\theta$ ที่แตกต่างกัน โดยพิจารณาค่าเฉลี่ยตัวอย่าง $\bar{x}$ เพื่อหาจุดสูงสุดของความน่าเชื่อถือนี้ เราใช้ นิยาม 6.2.2: การประมาณค่าลอการิธึม $l(\theta | s) = \ln L(\theta | s)$ การเปลี่ยนรูปนี้ช่วยลดผลคูณของข้อมูลที่เป็นอิสระให้กลายเป็นผลบวก ทำให้การหาค่าสูงสุดของโมเดลที่ซับซ้อนสามารถคำนวณได้ในเชิงปฏิบัติ

ตัวอย่างการแก้ปัญหา: การสำรวจส่วนสูง (ตัวอย่าง 6.3.5)

ข้อมูล

พิจารณาตัวอย่างขนาด $n=30$ ของความสูง พร้อมค่าส่วนเบี่ยงเบนมาตรฐานที่คำนวณได้คือ $s=2.379$ โดยใช้แบบจำลองปกติแบบตำแหน่ง-สเกล เราต้องการอนุมานค่าเฉลี่ยจริง $\theta$

การอนุมานและการแม่นยำ

ค่าความคลาดเคลื่อนมาตรฐานคำนวณได้จาก $s/\sqrt{30} = 0.43434$ ค่านี้วัดความคมชัดของจุดยอดการประมาณค่าของเรา ค่าความคลาดเคลื่อนมาตรฐานที่เล็กลงหมายถึงจุดยอดแคบและแหลม ซึ่งบ่งบอกถึงความแม่นยำสูงในการอนุมานค่า $\theta$

มิติและความจำกัด

ในสถานการณ์ที่ซับซ้อนเช่น ตัวอย่าง 6.1.5 (แบบจำลองหลายหมวดหมู่)เราต้องพิจารณาความสัมพันธ์เชิงตรรกะ ตามที่ระบุไว้ว่า "สังเกตว่ามันแท้จริงแล้วมีเพียงสองมิติ เพราะเมื่อเรารู้ค่าของ $\theta_i$ ใดๆ สองค่า... เราก็ทราบค่าพารามิเตอร์ที่เหลือทันที" ข้อจำกัดนี้มีความสำคัญต่อการกำหนดพื้นที่พารามิเตอร์ $\Omega$ อย่างถูกต้อง

รากฐานเชิงอนุกรม

สะพานจากฟังก์ชันการประมาณค่าไปสู่การอนุมานอาศัยทฤษฎีบทกลางของจำนวนมาก เมื่อ $n \to \infty$ การแจกแจงของตัวประมาณค่าจะเข้าใกล้ค่าคงที่ โดยเฉพาะในกรณี ตัวอย่าง 6.5.4 แบบจำลองเบอร์นูลลี:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

สิ่งนี้ทำให้เราสามารถวัดความไม่แน่นอนได้โดยใช้ช่วงความเชื่อมั่นแบบ z และค่าความน่าจะเป็น ภายใต้เงื่อนไขที่มีตัวอย่างขนาดใหญ่พอ

หลักการหลัก
วิธีการอนุมานทางสถิติที่ไม่ต้องพึ่งพาการแจกแจง (distribution-free) ต้องการสมมติฐานเพียงเล็กน้อยเกี่ยวกับการแจกแจงตัวอย่าง ทำให้มีความทนทานเมื่อครอบครัว $\{P_{\theta} : \theta \in \Omega\}$ มีขนาดใหญ่มาก ในทางกลับกัน วิธีการประมาณค่าแบบพารามิเตอร์พึ่งพาความโค้งของลอการิธึมของการประมาณค่า ซึ่งข้อมูลฟิชเชอร์ $nI(\theta)$ กำหนดความแปรปรวนของฟังก์ชันคะแนนของเรา